0%

(2017) Going deeper into action recognition:A survey

Herath S, Harandi M, Porikli F. Going deeper into action recognition: A survey[J]. Image and Vision Computing, 2017, 60: 4-21.



1. Overview


论文介绍了Action Recognition方面的四种深度学习结构

  • Spatiotemporal Network
  • Multiple Steam Network
  • Deep Generative Network
  • Temporal Coherency Network
    以及Action Recognition数据集(KTH、Weizmann、Hollywood2、HMDB-51、UCF-101、Sports 1-M)。



2. Spatiotemporal Network


2.1. 3D CNN



在实际中,加入一些补充信息(optical flow)训练网络能得到更好的性能。将时间信息输入网络的过程称为fusion,有以下3种机制

  • slow fusion. 同时输入视频中的几个片段。在foveated结构中,输入context stream的同时,还输入了fovea stream(图像中心;假设在拍摄时,会将重要的内容移动到视野中心)


  • early fusion. 输入相邻帧集合
  • late fusion. 逐帧输入进行处理,最后将所有帧的特征融合
    在3D CNN结构中,使用更长的帧能够提高效果;将3D卷积核分解为2D卷积核和1D卷积核能够减少参数。

2.2. RNN

  • 先用3D CNN提取特征,再输入到LSTM中


  • LRCN(Long-term Recurrent Convolutional Network)




3. Multiple Stream Network


两个并行输入

  • 基准帧
  • 连续光流
    特点
  • 使用ImageNet预训练权重
  • 光流 early fusion
  • multi-task训练 (由于数据集较小,因此使用多数据集进行训练,每个数据集对应一个分类层
    在中间层进行fusion,既能提高效果,也能减少参数。




4. Deep Generative Models


时间序列维度的生成预测是一个无监督问题。

4.1. Dynencoder

分为三层

  • 输入帧x_t得到h_t
  • 根据h_t预测h_{t+1}
  • 根据h_{t+1}生成帧x_{t+1}
    先分别预训练每层,再end-to-end fine tuning.

4.2. LSTM Autoencoder

分为两层

  • encoder LSTM
  • decoder LSTM (合成和预测)


4.3. Adversarial方法训练



5. Temporal Coherency Network


一种弱监督形式。模型判断一段视频帧是否时序正确。

5.1. Siamese Network

判断给定序列是否Coherency。相比ImageNet预训练权重give more attention to human poses,并且能够提高准确度。




缺点. 视频段之间可能会出现场景变化(如Sports 1M数据集中的广告插播)。

## 5.2. 基于Siamese网络的并行结构
将视频帧分为两个集合
- prediction set X_p
- effect set X_e
将X_p特征进行变换,与X_e特征进行对比,从而识别行为。





6. 数据数据


6.1. dataset

  • controlled condition (limited camera motion, almost zero background clutter)
  • limited to basic action (walking, running and jumping)

6.2. HMDB-51&UCF-101

  • 非专业拍摄的Youtube视频(contain camera motion (and shakes), view-point variations and resolution inconsistencies)
  • Actions are well cropped in the temporal domain, not well-suited for measuring the performance of action localization
  • 包含subtle classes (chewing and talking or playing violin and playing cello),要求网络深层次理解时空线索

6.3. Hollywood2&Sports-1M

  • 视角变换(view-point/editing complexities)
  • 行为只发生在视频中某个很小的clips
    Sports-1M中还包含观众和广告条





7. 未来发展


  • knowledge transfer & domain adaptation
  • 算法混合(3D CNN、temporal pooling、 optical flow frames、LSTM
  • 提升性能(data augmentation、foveated architecture、distinct frame sampling strategis



8. 实际应用


  • 通常会涉及到joint dection(人体关键点检测)
  • fine-grained行为识别,而非识别所有类别的行为